交通导航 3
你可以在此处找到 DeepTraffic 模拟器。该神经网络尝试学习一种驾驶策略,使汽车能够通过强化学习以尽量最快的速度驾驶。当汽车选择的操作使汽车能快速移动时,该神经网络会受到奖励。正是这种反馈使得该网络能够找到实现最佳速度的操作策略。
要详细了解如何设置参数和训练该网络,请阅读此处的概述。
Next Concept